当前位置: 开发笔记 > 编程语言 > 正文

文中|小手_中文起，Python字体反爬实战案例，再一点

作者：哆啦356 | 来源：互联网 | 2023-09-06 12:32

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文起，Python字体反爬实战案例，再一点相关的知识，希望对你有一定的参考价值。

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文起，Python 字体反爬实战案例，再一点相关的知识，希望对你有一定的参考价值。

⛳️ 起点实战场景

本次采集的案例是点起文中，你可以随机打开一本目标xiaoshuo，检查一下网络请求中是否存在字体文件响应数据。

Python脱敏处理.Python脱敏处理.Python脱敏处理/info/2952453/#Catalog

字体加密位置呈现的效果如下图所示。

编写网页爬取代码，查看其字体位置使用的编码。

import requests headers = "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/100.0.4896.127 Safari/537.36", "Origin": https://Python脱敏处理.com, "referer": "https://Python脱敏处理.com" respOnse= requests.get(url=https://Python脱敏处理/info/2952453/,headers=headers) response.encoding = utf-8 print(response.text[:20000])

截取源码部分，查看编码内容。

同时下载本页面的字体文件，用工具打开之后，发现字体编码图形顺序没有什么变化，这对于后续我们解决反爬就变得非常简单了。

接下来读取和解构一下这个字体文件，在其中找到能用的数据。

from fontTools.ttLib import TTFont import io file_woff = ./fonts/YOfzYtjr.woff with open(file_woff, rb) as font_file: fOnt= TTFont(io.BytesIO(font_file.read())) # 转换成字体对象 #字体映射关系 font_cmap = font[cmap].getBestCmap() print(font_cmap)

输出的信息为：

100418: two, 100420: seven, 100421: five, 100422: nine, 100423: six, 100424: three, 100425: four, 100426: zero, 100427: one, 100428: period, 100429: eight

接下来在回头去看一下刚才字体反爬位置的特殊字符与字体编码。
网页特殊字符

&＃100273;&＃100271;&＃100276;&＃100274;&＃100273;&＃100269;

字体编码

100269: nine, 100271: five, 100272: three, 100273: six, 100274: period, 100275: one, 100276: eight, 100277: two, 100278: four, 100279: seven, 100280: zero

得到最终的结果。

&＃100273 -> 6

推荐阅读

utf-8
利用Python高效抓取微博文本与动态网页图像数据

本文介绍了使用 Python 编程语言高效抓取微博文本和动态网页图像数据的方法。通过详细的示例代码，展示了如何利用爬虫技术获取微博内容和动态图片，为数据采集和分析提供了实用的技术支持。对于对网络数据抓取感兴趣的读者，本文具有较高的参考价值。 ... [详细]

蜡笔小新 2024-10-31 14:48:38
hash
如何在PHP中计算腾讯云接口签名，实现人脸核身接口的对接与签名配置

在PHP中实现腾讯云接口签名，以完成人脸核身功能的对接与签名配置时，需要注意将文档中的POST请求改为GET请求。具体步骤包括：使用你的`secretKey`生成签名字符串`$srcStr`，格式为`GET faceid.tencentcloudapi.com?`，确保参数正确拼接，避免因请求方法错误导致的签名问题。此外，还需关注API的其他参数要求，确保请求的完整性和安全性。 ... [详细]

蜡笔小新 2024-11-08 21:58:28
ip
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
ip
如何高效利用Hackbar插件提升网页调试效率

通过合理利用Hackbar插件，可以显著提升网页调试的效率。本文介绍了如何获取并使用未包含收费功能的2.1.3版本，以确保在不升级到最新2.2.2版本的情况下，依然能够高效进行网页调试。此外，文章还提供了详细的使用技巧和常见问题解决方案，帮助开发者更好地掌握这一工具。 ... [详细]

蜡笔小新 2024-11-06 15:41:47
utf-8
可转债数据智能抓取与分析平台优化

本项目旨在优化可转债数据的智能抓取与分析平台。通过爬取集思录上的可转债信息（排除已发布赎回的债券），并结合安道全教授提出的三条安全线投资策略，新增了建仓线、加仓线和重仓线，以提供更精准的投资建议。 ... [详细]

蜡笔小新 2024-10-30 17:40:17
utf-8
网络爬虫的规范与限制

本文探讨了网络爬虫引发的问题及其解决方案，重点介绍了Robots协议的作用和使用方法，旨在为网络爬虫的合理使用提供指导。 ... [详细]

蜡笔小新 2024-11-13 15:45:41
ip
JUC（三）：深入解析AQS

本文详细介绍了Java并发工具包中的核心类AQS（AbstractQueuedSynchronizer），包括其基本概念、数据结构、源码分析及核心方法的实现。 ... [详细]

蜡笔小新 2024-11-13 15:40:34
callback
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
callback
Android 系统版本号获取方法详解

本文详细介绍了如何在 Android 应用中获取系统的版本号，包括具体的应用场景和实现步骤。 ... [详细]

蜡笔小新 2024-11-12 14:43:24
datetime
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
ip
Ave V8 JavaScript 引擎：持续优化与创新

V8不仅是一款著名的八缸发动机，广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来，作为Chromium项目的一部分，V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制，显著提升了JavaScript的执行效率，为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色，成为众多开发者和企业的首选。 ... [详细]

蜡笔小新 2024-11-09 15:56:40
ip
利用爬虫技术抓取数据，结合Fiddler与Postman在Chrome中的应用优化提交流程

本文探讨了如何利用爬虫技术抓取目标网站的数据，并结合Fiddler和Postman工具在Chrome浏览器中的应用，优化数据提交流程。通过详细的抓包分析和模拟提交，有效提升了数据抓取的效率和准确性。此外，文章还介绍了如何使用这些工具进行调试和优化，为开发者提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 09:05:16
jar
C++ 开发实战：实用技巧与经验分享

C++ 开发实战：实用技巧与经验分享 ... [详细]

蜡笔小新 2024-11-07 20:31:03
utf-8
网页图像抓取技术学习心得：从零开始掌握爬虫技巧

在今天的实践中，我深入学习了网页图像抓取技术，通过编写爬虫程序批量获取网站上的图片资源。具体来说，我选择了一个包含大量高质量图片的网站作为练习对象，并成功实现了将这些图片批量下载到本地存储。这一过程不仅提升了我对爬虫技术的理解，还增强了我的编程能力。 ... [详细]

蜡笔小新 2024-11-03 19:35:28
ip
PyQt5 QTextEdit：深入解析Python中多功能GUI库的应用与实现

本文详细探讨了 PyQt5 中 QTextEdit 组件在 Python 多功能 GUI 库中的应用与实现。PyQt5 是 Qt 框架的 Python 绑定，提供了超过 620 个类和 6000 个函数及方法，广泛应用于跨平台应用程序开发。QTextEdit 作为其中的重要组件，支持丰富的文本编辑功能，如富文本格式、文本高亮和自定义样式等。PyQt5 的流行性不仅在于其强大的功能，还在于其易用性和灵活性，使其成为开发复杂用户界面的理想选择。 ... [详细]

蜡笔小新 2024-10-28 23:56:36

哆啦356

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

文中|小手_中文起，Python字体反爬实战案例，再一点

⛳️ 起点 实战场景

⛳️ 起点实战场景